使用溫度術語冷熱來區分存儲選項源于我們數十年來存儲數據的物理方式。更靠近數據中心的物品被更頻繁地訪問,并且實際上位于很熱的存儲設施中。
距離數據中心較遠的項目加載時間較慢,因此它成為存儲您需要訪問的數據的地方,訪問頻率要低得多。這種類型的存儲與熱存儲不同——通常使用舊驅動器或完全關閉的驅動器。這些存儲類型不會產生其他存儲設施產生的熱量。讓我們看一下數據存儲,包括云如何影響我們存儲和計算數據的方式。
云存儲與本地存儲:熱、溫、冷
哪個存儲是熱的,哪個存儲是冷的,取決于您使用的存儲架構類型:
在使用邊緣設備的分布式系統中,熱存儲可以作為每個單獨的邊緣設備的計算 內存和存儲。
純云服務可以提供冷熱計算內存和存儲,任何使用冷存儲的云外設備。
何時使用熱存儲
您需要能夠立即訪問的所有數據都必須放在熱存儲中。這可以包括以下數據:
- 已知會改變
- 用于客戶查詢目的
- 用于任何當前項目
熱存儲需要立即和可靠的訪問。例如,亞馬遜和谷歌的服務有 99.95% 的可用性,而 Azure 提供高達 99.99% 的可用性。來自熱存儲系統的數據可以稱為“數據流”。許多復雜的系統在數據從您的存儲流入時對其進行處理。
數據傳輸速度取決于一個主要因素:數據從主機到目的地要經過多少條路線?在最接近其來源處處理的數據將是最快的。必須通過幾個不同的網絡傳輸并到達開發人員筆記本電腦的數據可能需要更長的時間才能訪問。
例如,如果數據托管在 Google 存儲中,并且用戶希望通過另一個 Google 服務器或在Google Colab 筆記本中檢索和處理該存儲,他們應該會發現他們的處理速度相當快。如果從 Google Storage 獲取數據并傳輸到本地外部硬盤驅動器,則數據必須通過更多路徑。該數據還取決于將數據寫入新硬盤驅動器的網絡速度和讀/寫速度。
在機器學習項目中,數據被多次讀取,需要快速提供給 ML 模型,所以應該放在熱存儲中。該數據可以位于建模者筆記本電腦的驅動器上或外部驅動器上。對于擁有眾所周知的大型數據集的大公司來說,可能需要立即訪問數 TB 或 PB 的數據,而云服務提供商可以幫助管理他們的熱存儲選項。一旦數據被使用或替換并準備好退役,數據就可以存儲在冷存儲中,用于團隊的數據版本控制。
何時使用冷庫
冷存儲適用于很少使用的數據。這是由于某些原因需要保留的數據,例如法律原因、合規性或簡單的記錄保存。數據版本控制變得越來越普遍,因此舊版本的數據集是保存在冷存儲中的好項目。它可能是不再更新但仍在查詢的數據。該數據也稱為“休眠數據”。
冷存儲數據檢索可能比熱存儲花費更長的時間。訪問冷存儲數據可能需要幾分鐘到幾小時,因此這些數據非常適合用于需要耐心和計劃的項目——而不是緊迫的期限。冷存儲甚至可能需要一個人在物理上篩選一組物理硬盤驅動器,例如存儲設備庫,然后將其連接到計算機并檢索數據。當它與這樣的計算機完全斷開連接時,物理存儲實際上是冷的。在后一種情況下,冷存儲可用于引用未存儲在云中的任何數據。
云中的存儲
許多服務正在向云遷移,冷熱存儲選項也是如此。他們的術語,冷熱,是他們在云之前的代名詞。每個主要供應商都有自己的冷熱層。
定價可能很復雜,因為它取決于幾個因素,例如存儲是在一個時區還是跨多個時區可用。一個好的經驗法則是冷存儲的成本是熱存儲的一半。
云選項正在改變我們看待數據計算和數據存儲的方式。但是冷熱術語仍然主要指的是您的存儲的可訪問性。快速便捷的可訪問性很熱門。緩慢而困難的可達性是冷的。